应用于蛋白质多序列比对(MSA)数据集的最新生成学习模型包括简单且基于可解释的物理的POTTS协方差模型和其他机器学习模型,例如MSA-Transformer(MSA-T)。最佳模型准确地重现了蛋白质内的生物物理约束引起的MSA统计数据,从而提出了哪种功能形成最佳模型的问题。POTTS模型通常是由有效的电位(包括成对残基 - 残基相互作用项)所指出的,但有人建议MSA-T可以捕获由效能电位引起的效应,这些电势包括成对相互作用和隐式相互作用以及MSA中的系统发育结构。在这里,我们比较了POTTS模型和MSA-T的能力,重建了反映复杂生物学序列约束的高阶序列统计。我们发现,模型性能在很大程度上取决于序列之间系统发育关系的处理,这可以诱导MSA中的非生物物理突变协方差。在使用系统发育依赖性的明确校正时,我们发现Potts模型在检测生物物理起源的上皮相互作用方面优于MSA-T。
主要关键词